بهبود کیفیت سیگنال گفتار آغشته به نویز و اعوجاج توسط شبکه های عصبی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی
نویسنده لوییزا دهیادگاری
استاد راهنما علی سیدصالحی
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1384

چکیده

انسان در ادراک گفتار روزمره با انواع تنوعات در سیگنال ورودی برخورد می کند و علیرغم آنها وظیفه درک به خوبی انجام می شود. به عنوان نمونه هائی از این تنوعات در بازشناسی گفتار می توان از نویزهای مختلف مانند نویزهای جمعی یا نویز کانال نام برد که به صورت ایستان و یا غیرایستان به سیگنال گفتار اضافه می شوند. مشاهده می شود که کارائی سیستمهای بازشناسی گفتار به عنوان مدلهائی از درک گفتار در انسان با تغییر تنوعات بشدت افت پیدا می کند. در این پروژه از توانائی های شبکه های عصبی با اتصالات بازگشتی برای کاهش میزان نویز ، اعوجاج و تنوعات ناخواسته از سیگنال گفتار استفاده می شود. ساختارهای مختلف شبکه های عصبی بازگشتی که به منظور بازشناسی گفتار در سطح بازشناسی آوا طراحی و پیاده سازی شده اند، برای حذف نویز از سیگنال گفتار مورد بررسی قرار می گیرند و نتایج بدست آمده از آنها با یک شبکه عصبی ساده که اتصالات بازگشتی در آن ملحوظ نشده است، مقایسه می شوند. در آزمایشات اولیه نحوه عملکرد شبکه های بازگشتی و نحوه به قعر رفتن الگوهای نویزی با استفاده از چند نمونه ساده بررسی شده اند. در آزمایشات بعد ساختارهای شبکه عصبی بازگشتی به منظور بازشناسی گفتار در سطح بازشناسی آوا طراحی و پیاده سازی شده است که با هدف بازشناسی سیگنال گفتار نویزی مورد بررسی قرار می گیرد. ساختار این شبکه در طی آزمایشات مختلف بررسی و به تدریج کامل می گردد. در انتها ساختاری از شبکه عصبی بازگشتی طراحی شد که می تواند با استفاده از دور زدن در شبکه و به قعر رفتن الگوها، نمونه های نویزی شده را از روی الگوهای تمیزی که به شبکه تعلیم داده شده است بازیابی کند. در طی آزمایشات از دادگان صحبت یک نفر از گویندگان استفاده شد و پس از به دست آوردن یک ساختار نهائی از شبکه عصبی عملکرد شبکه در مورد دادگان زیاد و افراد مختلف نیز مورد ارزیابی قرار گرفت. بهترین مدل از شبکه های عصبی بازگشتی توانسته است درصد صحت بازشناسی سیگنال نویزی با نویز صفر دسی بل را برای دادگان تعلیم ده جمله از یک نفر 20% و برای 400 جمله از نفرات زیاد 21% نسبت به یک شبکه ساده که در آن اتصالات بازگشتی ملحوظ نشده است و خاصیت حذف نویز را ندارد، بهبود دهد.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهسازی و بهبود قابلیت فهم سیگنال گفتار آغشته به انعکاس

چکیده ندارد.

15 صفحه اول

حذف نویز از سیگنال گفتار با اصلاح طیف فرکانسی سیگنال نویزی – بررسی روشهای تخمین سیگنال به نویز محلی و کنترل و شکل دهی سطح نویز باقیمانده

asdad

متن کامل

حذف نویز سیگنال گفتار

در بسیاری از شرایط ارتباط گفتاری، وجود نویز زمینه، موجب کاهش کیفیت و قابلیت فهم گفتار می گردد. وقتی گوینده و شنونده در محیطی ساکت و بدون نویز ارتباط برقرار می کنند، تبادل اطلاعات آسان و دقیق است اما قرار گرفتن در محیط نویزی تاثیرا ت نامطلوبی بر روی سیگنال گفتار خواهد داشت. از اینرو در سال های اخیر روش های متعددی برای مقاوم سازی بازشناسی گفتار و کاهش عدم تطبیق میان شرایط آموزش و آزمایش مطرح گرد...

15 صفحه اول

مهندسی شبکه های عصبی توسط اتوماتانهای یادگیر: تعیین اندازه مطلوب برای شبکه های عصبی سه لایه

هدف از مهندسی شبکه های عصبی بررسی معایب و مزایای شبکه های عصبی مصنوعی و ارایه روشهایی برای بهبود کارایی آنهاست. یکی از موضوعات مورد بحث در مهندسی شبکه های عصبی چند لایه، یافتن ساختار مناسب(نزدیک به بهینه) برای حل مسئله می باشد. معیار و نحوه انتخاب اندازه شبکه عصبی برای یک مسئله خاص هنوز شناخته شده نیست. در روشهای کلاسیک،طراح شبکه در ابتدای آموزش ساختاری را برای شبکه تعیین و سپس شبکه را آموزش می...

متن کامل

تشخیص احساسات از سیگنال های گفتار براساس روش های فیلتر

گفتار ابزار اولیه ارتباط بین انسان‌‌ می‌باشد. با افزایش تراکنش میان انسان و ماشین نیاز به محاوره خودکار این دو و حذف کاربر انسانی مورد توجه قرار گرفته است.هدف از انجام این تحقیق، تعیین یک مجموعه از ویژگی‌های تاثیر گذار در تشخیص احساسات مبتنی بر سیگنال صحبت می‌باشد. در این مقاله، سیستمی طراحی گردید که شامل سه بخش اصلی، استخراج ویژگی، انتخاب ویژگی و طبقه‌بندی می‌باشد. پس از استخراج ویژگی‌های پرکا...

متن کامل

معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی

In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی

کلمات کلیدی

گفتار speech سیگنال شنیداری audio signal سیگنال پردازی صوتی acoustic signal processing بازشناسی گفتار speech recognition شبکه عصبی بازگشتی recurrent neural net نسبت سیگنال به نوفه signal to noise ratio مقاوم سازی hardening سیستم کنترل غیرخطی

میزبانی شده توسط پلتفرم ابری doprax.com